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基于 横 纵向 联合 控制 的 多 目标 优化 车 辆 跟 驰 研究 


李 备 凡 ， 秦 文 虎 {+， 云 中 华 
(东南 大 学 仪器 科学 与 工程 学 院 , 南京 210096) 


摘 要: 为 解决 车 辆 在 拥堵 环境 中 国 车 速 波动 较 大 所 带 来 的 跟 驰 平稳 性 较 差 ， 跟 踪 无 效 或 不 安全 等 问题 ， 提 出 了 基 
于 车 辆 模型 和 深度 强化 学 习 的 多 目标 优化 跟 驰 方案 。 首 先 基于 车 辆 横 纵向 动力 学 建立 车 辆 跟 驰 模型 ， 然 后 根据 车 间 
距 误差 、 速 度 误差 、 横 向 偏差 及 相对 偏 航 角 等 ， 利 用 深度 确定 性 策略 梯度 算法 得 到 跟 驰 车 的 加 速度 和 转向 角 ， 以 更 
平稳 安全 地 控制 跟 驰 车 辆 。 经 NGSIM 公开 驾驶 数据 集 进行 测 试 与 验证 ， 该 方案 可 有 效 地 提升 跟 驰 车 辆 的 稳定 、 舒 
适 与 安全 性 ， 对 保证 交通 安全 和 提升 道路 通行 能 力 具 有 重要 意义 。 
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Multi-objective optimal car-following model with lateral and longitudinal control 


Li Mengfan, Qin Wenhui, Yun Zhonghua 
(Southeast University, School of Instrument Science&Engineering, Nanjing 210096, China) 


Abstract: Due to the large fluctuations and poor stability of the vehicle in the congested environment, it is difficult to track 
the vehicle in front of it in time. This paper developed a multi-objective optimal car following algorithm. The algorithm used 
a vehicle lateral and longitudinal dynamic model and deep reinforcement learning to establish a car-following model. Then, 
according to the vehicle distance difference, speed difference, lateral deviation, and relative yaw angle, the deep deterministic 
strategy gradient algorithm obtained the acceleration and steering angle of the following vehicle. Therefore, the algorithm can 
control the following car more smoothly and safely. After testing and verification with the NGSIM driving data set, the results 
show that this method can effectively improve the stability, comfort, and safety of car following. It can promote traffic safety 
and improve road capacity. 


Key words: car following; lateral and longitudinal; deep deterministic policy gradient; NGSIM 


利用 深度 强化 学 习 得 到 了 和 车辆 跟 驰 策略 ， 建 立 了 从 跟 驰 速度 、 相 


0 385 对 速度 、 车 间距 到 跟 驰 加 速度 的 仿 人 映射 模型 ，Pan Feng 等 人 四 

车 辆 跟 驰 是 重要 的 自动 驾驶 辅助 技术 ， 能 够 减轻 驾驶 员 基于 道 强化 学 习 对 真实 驾驶 数据 分 析 后 ， 获 取 了 人 类 鸭 驶 员 的 轰 
的 苔 驶 负担 ， 提 高 驾驶 舒适 性 ， 减 少 交 通 安全 事故 。 但 在 交 驶 特征 ， 设 计 了 奖励 函数 ， 得 到 了 更 加 自然 的 跟 驰 驾驶 行为 ， 朱 
通 拥 堵 状 况 中 由 于 车 辆 频繁 的 加 减速 ， 跟 驰 效果 较 差 ， 因 此 ” 冰 中 基于 近 端 策略 优化 算法 建立 了 车 辆 跟 驰 控制 策略 及 基于 双 前 


低速 跟 驰 研 究 得 到 了 广泛 关注 中。 车 跟 驰 结构 的 主 车 纵向 控制 架构 ， 实 现 了 车 辆 跟 驰 控制 。 模 型 预 
以 往 的 自动 驾驶 跟 驰 模型 多 为 理论 驱动 ， 主 要 在 车 辆 跟 ”” 测 控制 (SIQModel Predictive Control，MPC) 多 应 用 于 跟 驰 场景 中 ， 
驰 行 为 基础 上 ， 以 数学 、 物 理学 模型 表达 跟 驰 过 程 中 的 各 种 ”重庆 大 学 胡 晓 松 等 人 四 开发 了 一 种 基于 MPC 的 控制 器 来 优化 车 
状态 ， 建 立 符合 驾驶 经 验 的 车 辆 跟 驰 模型 。 首 个 跟 驰 模型 速 和 发 动机 扭矩 ,在 确保 跟 驰 安全 的 同时 实现 更 好 的 燃油 经 济 性 
pipesD 提 出 ， 其 假设 跟 驰 车 速度 与 车 间距 成 正比 ， 根 据 车 间 和 更 少 的 废气 排放 。Mao Jin 等 人 9 基于 MPC 算法 , 设计 了 可 以 
距 决 策 跟 驰 车 速度 ， 建 立 车 辆 跟 驰 模型 。 之 后 ， 基 于 交通 流 ”在线 更 新 权重 系数 的 多 目标 优化 方法 , 实现 了 更 好 的 跟 驰 跟踪 性 
异 质 性 、 人 类 因素 、 道 路 因素 等 陆续 提出 了 基于 安全 距离 、 和 稳定 性 。 与 其 他 模型 相 比 ， 深 度 强化 学 习 车 辆 跟 驰 模型 能 够 通 


心理 生理 、 刺 激 反应 以 及 元 胞 自动 机 等 车 辆 跟 驰 模型 ， 但 理 过 不 断 地 学 习 适 应 不 同 地 驾驶 环境 ， 具 有 更 好 的 泛 化 能 力 ， 有 助 

论 驱 动 跟 驰 模 型 难以 综合 考虑 上 述 各 种 影响 因素 ， 模 型 预测 。 于 开发 与 人 类 驾驶 行为 更 相似 的 自主 驾驶 算法 和 交通 流 模型 。 

精度 较 差 ， 在 描述 复杂 车 辆 跟 驰 行为 时 不 够 准确 。 鸭 驶 员 在 跟 车 行驶 时 ， 意 识 到 车 辆 偏离 期 望 轨迹 时 ， 通 
得 益 于 智能 交通 的 发 展 ， 大 规模 高 精度 车 辆 轨迹 数据 为 常会 通过 降低 速度 和 增 大 跟 车 距离 ， 以 减 小 横向 控制 风险 和 


基于 数据 驱动 的 车 辆 跟 驰 提供 了 研究 基础 ， 通 过 对 车 辆 轨迹 纵向 事故 风险 550。 车 辆 在 曲率 变化 的 道路 上 行驶 时 ， 若 模型 
数据 统计 分 析 ， 挖 掘 出 有 关 和 驾驶 行为 规律 ， 建 立 对 应 的 拟 合 ”对 横向 控制 不 足 ， 会 影响 车 辆 的 操纵 稳定 性 。 通 常 的 跟 驰 看 
关系 ,从 而 实现 车 辆 的 有 效 跟 驰 申 。 目前 , 数据 驱动 车 辆 跟 驰 究 大 多 考虑 了 纵向 加 速度 决策 而 忽略 了 横向 路 径 跟 踪 ， 且 主 
模型 有 基于 模糊 逻辑 、 支 持 向 量 回归 、 人 工 神经 网 络 、 深 度 ”要 集中 于 对 人 类 驾驶 行为 的 模拟 而 忽略 了 对 驾驶 行为 的 优化 。 
强化 学 习 模 型 等 。 其 中 深度 强化 学 习 跟 驰 模型 外 是 近年 的 研 。 本 文 基于 车 辆 横 纵向 联合 控制 并 考虑 安全 性 、 和 舒适 性 ， 利 用 
究 热 点 ， 如 卷 积 神经 网 络 、 弟 归 神 经 网 络 、 长 短 时 记忆 神经 深度 强化 学 习 算法 得 到 同时 决策 加 速度 和 转向 角 的 车 辆 跟 
网 络 等 方法 逐步 应 用 于 车 辆 跟 驰 研究 中 。Zhu Meixin S: AD]. — 驰 模型 ,实现 车 辆 有 效 地 跟随 前 车 行驶 。 
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以 及 纵向 运动 ， 建 立 车 辆 
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等 : 基于 横 纵向 联合 控制 的 多 目标 优化 车 辆 跟 驰 研究 


在 跟 驰 车 辆 的 运动 控制 中 ， 


首先 需 建立 车 辆 动力 学 模型 ， 
f 究 根据 转向 和 牵引 系统 ， 简 化 转向 系统 ， 直 接 输 入 前 轮 


作为 跟 驰 车 方向 盘 转 角 ， 基 于 车 辆 横向 运动 和 横 摆 运 动 


Vy 


HI 


REDI JI FARRA bp BU 


Y, =v, b+ (Fy cosó — F, sinó +F,)/m 


-v,Q- (F, sinô + Fy cosó - F,)/m 


a) 


$=((Fy sind Fy cosô)l; - F,1,)/ I. 


Va 


1 为 车 辆 动力 学 模型 ,图 中 XOY 是 地 面 参考 坐标 系 ， 


质心 的 纵向 和 侧 向 速度 ，? 是 


TP 


nid fi 


EJZ, 


9; 


车 质心 到 前 
Ze 3 


轮 的 距离 , ;是 汽车 
E 轴 的 转动 惯量 ; 
侧 向 力 ，Fw 和 Py 分 别 是 后 轮 所 受到 的 作 上 


Fy 和 


6 为 前 轮转 向 角 ; 7 是 汽 


质心 到 后 轮 的 距离 ; 1 是 车 辆 
Fy 分 别 是 前 轮 所 受到 纵向 力 和 


JJe 


图 1 车 辆 动力 学 模型 
Fig.1 Vehicle dynamics model 
前 后 轮胎 的 侧 向 力 与 侧 偏 角 近 似 成 线 特 
As, 0, 分 别 为 前 轮 侧 偏 角 和 后 轮 侧 偏 角 ; 
辆 前 轮胎 转弯 刚度 和 后 轮胎 转弯 刚度 [2]。 
Fy -2C,a, -2C,(8 se >) 
F, =2C,0, =2C, J 


V 


X(O)Q)BI n] 8 8] 7e 4$ 
URS fü mad E 8 。 
2 基于 DDPG 车 辆 跟 邓 决策 算法 


能 力 和 强化 学 习 的 决策 优势 ， 且 适 | 
输出 的 跟 驰 决策 问题 ， 
算法 建立 了 车 软 


深度 确定 性 策略 梯度 算法 具有 深度 神经 


iH 


15 


车 横向 偏差、 相对 
法 ， 将 车 辆 跟 驰 问题 转换 转换 为 特定 奖励 函 
通过 深度 强化 学 习 agent 与 车 
的 横 纵 向 控制 策略 
辆 的 加 速度 和 转向 角 ， 以 此 来 调整 跟 驰 车 辆 的 运动 状态 ， 实 


代 学 习 ， 得 到 跟 驰 车 加 


有 的 控制 策略 。 


在 拥堵 路 段 中 ， 跟 驰 车 辆 的 
前 车 运动 状态 所 


E 
m 


SH 


关系 0 。 式 (2) 中 


C Cr 分 别 为 车 


Q) 


的 纵向 加 速度 i、、 横 向 加 速度 


网 络 的 特征 提取 


于 


离散 输入 、 连 续 


因此 ， 本 文 基 于 深 
j 跟 邓 总 体 策 略 如 图 2 所 示 。 


加 速度 a 和 


Hin] , 


PEE E P 


F 前 车 状 


在 采集 到 前 后 车 辆 的 速度 差 、 


定性 策略 梯度 


向 角 5 通常 受 
来 建立 跟 驰 车 
相对 距离 及 后 


转 


航 角 之 后 ， 利 ) 


深度 确 


定性 策略 梯度 算 


现 对 跟 驰 车 的 最 优 控制 吕 。 


2.1 


天 


DDPG 算法 原理 
深度 强化 学 习 包 含 不 断 观 察 和 奖励 
体 (agent)， 以 及 


数 下 的 马尔 可 夫 
辆 跟 驰 环境 交互 
， 也 就 是 跟 驰 车 


与 


环境 互动 的 智能 


agent 所 采取 的 行动 而 发 生变 化 的 环境 两 


部 分 。 深 度 Q 
续 


H 


网 


动作 空间 中 


281 


有 少量 离散 输出 


适用 于 


型 ， 但 在 连 


的 模 到 


ERRER. i 


Ph 表现 良好 的 深 


究 利 


在 连续 控制 领域 


确定 性 策略 梯度 (DDPG) 算 法 5051， 来 学 习 
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Actor 网 络 和 Critic 网 络 , 将 用 于 决策 加 速度 和 转向 角 的 跟 驰 


车 作为 agent， 其 主要 目标 是 最 大 化 奖励 函数 。Actor 
责 策 略 的 生成 ， 即 根据 跟 引 
以 及 相对 距离 来 输出 跟 驰 车 的 加 
扁 航 角 得 到 跟 驰 车 方向 盘 的 转角 
改进 , 根据 状态 -动作 对 来 输 则 


p 
ES 


> 


网 络 主 


也 车 和 前 车 的 速度 、 相 对 速 


Rr 
又 


o Critic 


速度 ， 根 据 横 向 偏差 和 相对 
网 络 则 负 
H Olsa), 并 按 性 能 改进 方向 来 


责 策略 的 


更 新 Actor 的 策略 参数 。 
模拟 环境 _ 奖励 ， 
== =| | 于、 tall) E incid | 
MALE I7 Val; A Vn) 
H anag | 


包含 多 个 神经 元 的 隐藏 


标 网 络 权 重 参数 0+ 、02 , 然后 在 每 个 训练 周 


的 策 


2 ”基于 深度 强化 学 习 的 车 辆 跟 驰 


Fig.2 Deep reinforcement learning for 


总 体 框 


car following 


3 的 Actor 和 Critic 的 网 络 架构 | 


输入 层 ， 输 出 


ERI 


层 所 构成 -DDPG 首先 初始 化 缓冲 
Actor, Critic 网 络 参数 0^. 09 以 及 Actor. Critic 相应 


区 ， 


的 目 


期 中 ,根据 Actor 


I a=J(s19r)+N, 计 算 跟 驰 车 的 加 速度 和 转向 角 , 接 下 来 观 


察 奖励 值 r 和 下 一 时 刻 状态 值 s+:， 在 得 到 奖励 函数 和 状态 
值 后 利用 Critic 网 络 对 当前 状态 st 所 采取 的 动作 a 进行 评估 ， 


根据 损失 函数 工 来 更 新 Critic 的 网 络 参 数 09 ,并 


使 用 策略 梯 


度 来 更 新 Actor 的 网 络 参 数 9“ ， 最 后 根据 Actor 和 Critic 的 


网 络 权重 的 更 新 方向 来 更 新 
程 来 不 断 优化 Actor 和 Critic， 直 到 收敛 。 在 这 个 过 程 中 


标 网 络 权重 


0" 和 Ge ， 以 此 过 


DDPG 算法 55 的 优化 目标 为 
a = arg ax (see) (3) 
Critic 网 络 依据 损失 函数 (4) 更 新 2 。 
Yi = +Q Gad |07)|09) 
i -E(Q(s.a,)|09) - y? e) 
Actor 网 络 使 用 策略 梯度 (5) 来 更 新 94 。 
VJ & V. Q(s,a | 02) la V p HCS, 18”) p (5) 


E k 次 优化 后 ， 采 用 策略 (6) 来 更 新 Actor 和 Critic 的 


标 网 络 


Act 


输出 层 


参数 0 FI Oe o 
0" «— 10" + (1— 7)0* 
los c 10? 4 (1— 7)08 (6) 
or 网 络 p(s| 0^) :$s 一 a Critic 网 络 :O(s,a) 
VO AN e P NA VA 4y DIN 


A Vti) Aó 


A Vn() 


P 


a,:,(t); Ó (t) 
* 


和 行驶 
和 行驶 
迹 之 间 
行驶 ,如 


Update | Vy 


Q(s,) 
VO(s.a) 


4ó Sii!) 5 (0) 


策略 梯度 


图 3 Actor 和 Critic 网 络 结构 


图 


Fig.3 Architecture of the actor and critic networks 
2.2 车 辆 跟 驰 误差 

跟 驰 车 在 跟随 前 车 运动 过 程 中 ， 需 要 依据 前 车 行驶 状态 
轨迹 ， 来 规划 跟 驰 车 的 控制 策略 。 为 了 跟踪 前 车 速度 


轨迹 ， 表 征 跟 驰 车 和 前 车 


之 间 的 位 置 和 


速度 及 行驶 轨 


的 关系 ， 使 跟 驰 车 保持 一 定 的 安全 距离 并 沿 


ET 


E VERA KAFEER FRIR 


模型 如 图 4 所 示 。 
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图 4 车 辆 跟 驰 误差 模型 


Fig.4 Car following error model 


在 车 辆 纵向 运动 中 ， 跟 驰 车 需 根据 车 辆 速度 和 与 前 车 的 
距离 决策 其 加 速度 ， 从 而 安全 、 有 效 地 跟随 前 车 行驶 。 微 观 
驾驶 员 行为 的 安全 距离 模型 09 为 式 (7)。 

d, = Aa Tos — Vraa ) + trr *V + do (7) 
其 中 :参数 4 由 车 辆 的 最 大 制 动 能 力 决定 ，trr 是 恒定 车 头 时 
E(s)， 一 般 为 驾驶 员 反 应 时 间 ; v 是 跟 驰 车 速度 (m/s); do 是 
恨 驰 车 车 速 为 零 时 的 最 小 安全 距离 (m)。, 因 车 辆 在 跟 驰 行驶 过 
程 中 ， 前 车 和 后 车 速度 差异 小 ， 将 403w -va) 项 忽略 ， 故 基 
于 固定 车 间 时 距 算法 09， 设 计 安 全 距离 模型 如 (8) 所 示 。 

d, =trr * V dy (8) 


根据 两 车 的 相对 运动 关系 ， 结 合 车 间 相 对 速度 和 车 间距 
误差 定义 车 辆 跟 驰 纵向 模型 (9) 以 直观 反映 跟随 模式 下 跟 驰 
车 和 前 车 的 行驶 状态 。 
ae 6) 
上 式 中 ev 为 跟 驰 车 速度 Vfollow 和 Hy 车 速度 Vlead 2 间 的 23 
值 ， Cd 为 实际 距离 dreal 与 安全 跟 车 距离 dsafe 之 间 的 差 值 。 
在 车 辆 横向 运动 中 ， 跟 驰 车 需要 根据 与 行驶 轨迹 间 的 相对 
位 置 关系 来 获取 横向 速度 和 横 摆 角速度 ， 并 通过 调整 车 辆 转向 
角 来 保证 有 效 地 进行 横向 跟踪 , 减 小 横向 偏差 和 相对 偏 航 角 [71。 


+Vep 


ho one (10) 
其 中 : ey 为 横向 位 置 偏差 ,为 偏 航 角 误 差 ; Ka 为 跟 驰 轨迹 曲率 。 


2.3 奖励 函数 设计 
在 强化 学 习 中 ， 奖 励 是 环境 对 智能 体 动作 的 反馈 和 评估 
动作 好 坏 的 信号 ,通常 为 标量 ,在 跟 驰 车 横 纵 向 联合 控制 中 ， 
需要 用 奖励 函数 来 决定 横向 轨迹 的 跟随 和 纵向 速度 的 控制 。 
跟 驰 控制 问题 可 转换 为 以 跟踪 性 、 安 全 性 和 和 舒适 性 号 等 
多 个 目标 的 优化 问题 。 为 了 使 跟 驰 车 尽 可 能 接近 目标 路 径 ， 

同时 保持 更 好 的 速度 响应 和 稳定 的 加 速 行为 ， 因 此 使 用 纵向 


: 基于 横 纵向 联合 控制 的 多 目标 优化 车 辆 跟 驰 研究 


RWE m， 以 防止 横向 偏差 过 大 、 跟 驰 速度 过 小 ， 
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= 2 p4 
Tiomorable = (030? + 40? ) 


(13) 


针对 安全 性 ， 基 于 安全 距离 误差 设计 奖励 函数 (14)。 


一 2 
ly, = 70521 


(14) 


终止 条 件 为 ley>1,v<0.5,4<0， 当 触及 终止 条 件 时 
避免 碰撞 。 


HIN, 


3 ”实验 结果 与 分 析 


3.1 ”模型 训练 
基于 DDPG 的 跟 驰 车 横 纵 向 联合 控制 的 重点 是 模型 特征 选 
择 和 融合 。 由 于 使 用 芍 驶 员 视 角 的 视觉 图 像 作为 模型 输入 的 可 
解释 性 太 差 ， 甚 至 导致 神经 网 络 无 法 学 习 到 有 用 信息 ， 因 此 本 
模型 使 用 环境 的 特征 向 量 Xiwpw 作 为 模型 输入 。 
Xiu = (66v feen, ds 68) (15) 


该 模型 根据 当前 的 策略 输出 跟 驰 车 的 加 速度 a 和 转向 角 6 
并 更 新 其 位 置 和 速度 。 同 时 ， 环 境 更 新 前 车 的 状态 并 返回 当前 
步骤 的 奖励 及 更 新 策略 。 


度 强 化 学 习 要 素 ; 


始 动 作 设置 为 当前 动作 (ao), 将 当前 
TEL Ges) ; 


r 


Topf (a € a) , 来 更 新 当前 


网 络 训练 步骤 如 下 : 
依据 动作 空间 、 状 态 空 


间 及 奖励 函数 ， 设 计 跟 驰 问题 的 深 


初始 化 Actor-Critic 网 络 ， 重 置 环 境 ; 
从 环境 中 获取 观测 量 so, 计算 初 始 动作 mw 7 GO ， 然 后 将 初 
前 的 观测 值 设置 为 初始 观 


ig 


将 动作 a 应 用 到 环境 中 ， 获 取 下 一 时 刻 的 观测 值 y 和 奖励 
， 然 后 从 经 验 集 中 学 习 (ar,s) ， 计 算 下 一 时 刻 的 动作 a=xs)， 
1 的 动作 , F4 Gs 7 5) 来 更 新 当前 的 观测 值 ; 


以 此 循环 ， 当 达到 终止 条 件 ， 训 练 终止 。 
DDPG 算法 的 超 参 数 如 表 1 所 示 。 
表 1 DDPG 算法 超 参 数 
Tab.1 Super parameters of DDPG algorithm 


参数 取 值 

Actor 网 络 学 习 率 0.0001 

Critic 网 络 学 习 率 0.001 
内 存 批 大 小 尺寸 64 
经 验 回 放 存 储 池 106 
最 大 回合 数 10* 
每 一 回合 最 多 步 数 600 
上 时 间 步 长 0.1 

图 5 所 示 为 训练 跟 驰 模型 中 的 奖励 变化 趋势 ， 该 训 
练 从 跟 驰 数据 集中 选取 了 40 个 跟 驰 事件 的 数据 i zi 


速度 误差 e,、 距 离 误 差 et、 横向 偏差 e,、 加 速度 a 和 转向 角 
6 作为 奖励 函数 的 特征 。 另 外 还 需 考 虑 相对 速度 小 于 零 、 跟 
驰 速度 过 小 以 及 横向 偏差 过 大 所 造成 的 异常 情况 给 予 模 型 惩 ”时 
罚 m。 因 此 设计 奖励 函数 (11)。 D 


F otal = follow + Teomfortable T Tsafe + M 


(11) 


为 了 有 效 地 跟踪 前 车 ， 基 于 纵向 速度 误差 和 横向 偏差 设 
计 奖 励 函 数 (12) 以 实现 纵向 速度 跟踪 和 横向 路 径 跟 踪 。 跟 驰 
速度 误差 和 横向 偏差 越 小 ，ryonow 将 越 大 ， 而 当 横 向 偏 
0.1m、 跟 驰 速度 误差 小 于 Ims 时 进行 正 向 奖励 HH， 以 更 精准 的 
进行 路 径 跟 踪 与 速度 跟踪 。 


Toliow = —(Q@e? + ey ) 十 H 


差 小 于 


(12) 


针对 舒适 性 , 基于 加 速度 和 转向 角 设计 奖励 函数 (13)。 跟 驰 
加 速度 和 转向 角 越 小 , 横 纵 向 的 跟 驰 将 会 越 稳定 , 舒适 性 也 越 好 。 


练 ， 其 中 红色 曲线 为 各 训练 回合 的 平均 奖励 值 ， 蓝 色 
线 为 每 个 训练 回合 的 奖励 值 ， 黄 色 


25 eB 
, critic 网 络 对 折扣 长 期 奖励 的 估计 。 平 均 奖 励 越 
民 驰 的 效果 越 好 。 实 验 经 历 3548 个 回合 的 训练 ， 从 


ER 也 


5 


H 


Ph 可 明显 的 看 出 在 约 1400 个 回合 时 ， 奖 励 函 数 


800 F 


逐步 收敛 。 


奖励 值 


Ih 1 n 1 1 n L 
0 500 — 1000 1500 2000 2500 3000 3500 
训练 次 数 /次 


图 5 跟 驰 模型 训练 奖励 值 整体 变化 图 


Fig.5 Car following model training reward value 
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录用 定稿 AE, €: 
在 图 5 中， 最 后 100 个 回合 的 奖励 值 如 图 6 所 示 ， 


可 以 看 出 该 算法 稳定 有 效 。 


600 p 


100 
3440 


mm 3520 m 3560 
训练 次 数 /次 

Ed 6 跟 驰 模型 训练 最 后 100 个 回合 奖励 值 

Fig.6 The last 100 rounds of the car following model training 


3.2 ”模型 测试 


1 1 
3460 3480 


利用 MATLAB/Simulink 搭建 跟 驰 控制 仿真 系统 ， 建 立 
整 车 动力 学 模型 ， 整 车 动力 学 参数 如 表 2 所 示 。 
表 2 整 车 动力 学 参数 
Tab.2 Vehicle dynamics parameters 
参数 名 参数 参数 值 
整 车 质量 m 1600kg 
车 身 绕 z 轴 转 动 惯量 l 2875kg/m? 
质心 到 前 轴 距 离 l; 1.4m 
质心 到 后 轴 距 离 L- 1.6m 
前 轮胎 转弯 刚度 Cr 19000N/rad 
后 轮胎 转弯 刚度 C. 33000N/rad 
基于 著名 的 NGSIM f 5z258 5i gg db 25 m ps EONST DR UE 
控制 策略 进行 测试 与 验证 ， 从 I-80 路 段 的 车 辆 轨迹 数据 中 提 
取 1341 个 跟 驰 事件 , 每 个 跟 驰 事件 包含 前 车 速度 、 跟 驰 车 速 


度 、 两 车 相对 速度 以 及 两 车 相对 间距 , 持续 时 间 在 15s 以 上 。 
如 表 3 所 示 为 某 一 个 跟 驰 事件 的 部 分 数据 。 
表 3 跟 驰 数据 结构 
Tab.3 Car following data structure 


跟 车 间距 (m) ” 跟 驰 车 速 (m/s) ”相对 速度 (m/s) ”前 车 速度 (m/s) 
9.995 7.773 2.368 10.141 
10.197 8.015 2.015 10.030 
10.367 8.231 1.701 9.932 
调整 加 速度 和 转向 角 使 跟 驰 车 跟随 前 车 沿 着 曲率 变化 道 


路 行驶 ， 在 满足 安全 距离 、 速 度 、 加 速度 和 转向 角 的 限制 条 
件 下 ， 计 算 最 优 跟 驰 动 作 。 另 外 根据 车 辆 动力 学 物理 限制 ， 
设置 跟 驰 车 加 速度 a 和 转向 角 5 范围 自如 (16) 所 示 。 

—3m/s? <a <2m/ s? 

eia < 


(16) 


从 1341 对 跟 驰 对 数据 中 ， 随 机 选择 一 组 跟 驰 数据 验证 
本 文 所 提 跟 驰 决策 方案 并 与 MPC 跟 驰 方案 进行 对 比 。 实 验 
中 的 车 辆 间距 、 速 度 及 加 速度 变化 如 图 7~9 所 示 。 设 置 前 车 
和 跟 驰 车 的 初始 车 间距 为 15m， 跟 驰 车 纵向 速度 为 6.7m/s， 前 
车 纵向 速度 为 6.1m/s. Fd 7 为 跟 车 间距 图 ， 可 以 看 出 ， 跟 驰 车 


和 前 车 的 车 距 始终 保持 相对 稳定 ，DDPG 算法 的 跟 车 距离 整体 
上 比 人 类 驾驶 员 和 MPC PRIER 实现 了 高 效 跟 驰 。 


30 


"Ome KEI S I ARIETE | 
一 “一 DDPG 跟 驰 间距 
—— MPCHUE ij 

P ESSE 


0 5 10 15 20 25 30 
时 间 (s) 
图 7 跟 车 间距 对 比 


Fig.7 Comparison of the car following distance 
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图 8 为 前 车 速度 ， 真 实 驾驶 员 跟 驰 速度 、DDPG 算法 所 


决策 的 跟 驰 速度 、 


MPC 算法 所 决 外 


策 的 跟 驰 速度 。 从 图 中 可 以 


看 出 前 


DDPG 算法 在 吕 


图 9 为 跟 邓 车 加 速度 | 
理 调整 加 速度 


车 经 历 了 先 加 速 


速度 (mls) 


民 随 行驶 中 的 速度 变化 更 加 稳定 。 


减速 然后 匀速 行驶 的 过 程 ， 而 


0 5 10 


15 20 25 30 


时 间 


图 8 


EX 


(s) 


速度 变化 


Fig.8 Vehicle speed 


线 图 ， 可 以 看 


出 ， 跟 驰 车 通过 合 


效 地 调整 了 


的 加 速度 。 


作为 模 


H. FH. 


车 速 与 间距 ， 且 保持 了 较为 平稳 


“9 一 真实 驾驶 员 跟 驰 加 速度 
一 "一 DDPG 跟 驰 加 速度 
一 *- 一 MPC 跟 驰 加 速度 


0 5 10 


1 
时 | 


5 20 25 30 
il(s) 


图 9 跟 驰 车 加 速度 变化 


Fig.9 Car following acceleration 


MAD- ($5 |y - X Dn 


;为 单个 观测 值 ; 


价 本 文 所 用 算法 的 跟 驰 效果 , 采用 平均 绝对 误差 (17) 
型 评价 指标 。 


(17) 


5 为 算数 平均 值 。 表 4 给 出 了 


DDPG 算法 、MPC 算法 和 真实 驾驶 员 实 测 值 的 平均 绝对 


误差 。 


表 4 模型 误差 
Tab.4 Model error 


MAD 


真实 驾驶 员 


MPC DDPG 


加 速度 
速度 
距离 


0.5722 
0.8089 
1.5306 


0.5507 
0.9823 
1.3390 


0.5407 
0.4932 
1.4408 


从 表 4 可 以 看 
差 最 小 ， 


的 速度 


算法 跟 驰 有 效 且 


H, DDPG 算法 的 加 速度 平 ] 
实现 了 更 加 平稳 舒适 的 跟 驰 效果 ; DDPG 算法 


8A 


误差 相对 于 人 类 驾驶 员 和 MPC 算法 都 有 所 降低 ， 


有 较 强 


的 


适应 能 力 ， 能够 保持 更 加 


稳定 的 行驶 速度 ，DDPG 算法 决策 的 跟 车 间距 平均 绝对 


Y 


误差 比 
定 且 能 


Z] 


实 驾 驶 员 小 ， 
果 持 较 小 的 车 距 。 
10 为 前 


初始 仿 


故 跟 驰 


得 偏 航 角 误差 
车 不 断 微调 转向 角 ， 


快速 减 小 ， 


跟 驰 


故 DDPG 算法 的 决策 效果 更 加 稳 


车 行驶 的 道路 轨迹 曲率 ， 11 为 横向 控 
制 实验 结果 。 其 中 , 跟 驰 车 的 初始 横向 偏差 设置 为 0.2m， 
航 角 设置 为 -0.1rad。 


车 通过 控制 转向 角 ， 使 


于 道路 轨迹 
使 横向 偏差 和 相对 偏 航 


率 不 断 变化 ， 
T 


小 ,DDPG 算法 和 MPC 算法 的 横向 控制 效果 基本 一 致 。 
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图 10 前 车 轨迹 曲率 图 


Fig. 10 Front car trajectory curvature 


横向 偏差 (m) 


o 
aN 


jh) 


转向 角 (*) ”相对 信 M 


20 25 30 


15 

时 间 (s) 

图 11 横向 控制 效果 图 

Fig. 11 Lateral control results 

为 了 评价 跟 驰 模型 的 预测 性 能 , 选取 加 速度 变化 率 Gerk) 

来 评价 跟 驰 舒适 性 ， 选 取 车 头 时 距 (thw，time headway) 评 价 

跟 驰 安全 性 和 有 效 性 。 在 跟 驰 行驶 中 的 车 头 时 距 通常 保持 在 

1s-4s VJ, 车头 时 距 越 小 跟踪 越 紧 , 跟 驰 效率 越 高 , 但 若 低 于 
ls 容易 发 生 磁 撞 ， 而 大 于 4s 则 通常 不 属于 跟 驰 行驶 。 
jerk = 97^ |Aa/All 

iw Da /LE 

从 表 5 可 以 看 出 ，DDPG 算法 所 决策 跟 驰 车 的 加 速度 变 

化 率 比 真 实 驾 驶 员 决 策 的 加 速度 变化 率 小 ， 可 保证 车 辆 跟 驰 

的 舒适 性 ， 避 人 免 频繁 加 减速 带 来 的 不 适 感 。 另 外 ， 跟 驰 车 的 

车 头 时 距 保持 在 了 1-4s 的 安全 车 头 时 距 范 围 内 , 比 真实 驾驶 
员 和 MPC 算法 决策 的 车 头 时 距 更 小 ， 跟 驰 效率 更 高 。 

de5 跟 驰 模型 评价 


Tab.5 Car following model evaluation 


上 


(18) 


真实 驾驶 员 决 策 MPC 决策 DDPG 决策 
jerk(m/s)) 531.4185 299.3043 426.4647 
thw(s) 1.4610 2.2279 1.2624 


为 验证 多 种 跟 驰 工 况 下 的 实验 效果 ， 另 在 NGSIM X 
据 集中 随机 选择 一 个 跟 驰 事件 ， 实 验 结果 如 图 12-15 和 表 
6~7 所 示 。 可 以 看 出 ， 在 该 跟 驰 事件 下 ，DDPG 算法 决策 
的 加 速度 及 其 变化 率 更 小 ， 跟 驰 车 速度 更 加 稳定 ， 车 头 时 
距 保持 在 1s~4s 的 范围 内 ， 依 然 实现 了 更 加 舒适 、 稳 定 和 
安全 地 跟 驰 。 


4 ”结束 语 


本 文 基于 车 辆 三 自由 度 动力 学 模型 并 结合 横 纵 向 联合 控 
制 ， 搭 建 了 一 种 车 辆 跟 驰 控制 模型 ， 然 后 基于 深度 强化 学 习 
DDPG 算法 建立 了 决策 模型 以 对 跟 驰 车 的 加 速度 和 转向 角 进 
行 决策 ， 以 确保 跟 驰 车 辆 的 行驶 安全 有 效 和 舒适。 实验 利用 
人 类 驾驶 数据 集 NGSIM 对 模型 进行 了 训练 测试 与 评估 ， 并 
与 MPC 跟 驰 控制 算法 相 比 ， 结 果 表 明 本 文 所 用 方法 在 保证 
安全 的 情况 下 ， 跟 驰 距 离 和 加 速度 变化 率 更 小 ， 比 人 类 驾驶 
员 表 现 更 佳 ， 对 保证 交通 安全 和 提升 道路 通行 能 力 具 有 较 大 
EX. 
目前 ， 跟 驰 控制 功能 相对 独立 ， 如 将 车 辆 跟 驰 控制 与 车 
道 保 持 辅 助 系 统 和 车 道 变换 辅助 系统 相 结合 ， 将 实现 更 高 层 
次 的 自动 驾驶 控制 。 
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图 12 跟 车 间距 对 比 


Fig. 12 Comparison of the car following distance 
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图 13 车 辆 速度 变化 

Fig. 13 Vehicle speed 
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图 14 跟 驰 车 加 速度 变化 


Fig. 14 Car following acceleration 


转向 角 (*) ”相对 偏 航 角 (*) 横向 偏差 (m) 


12 14 16 18 


8 10 
时 间 (s) 


15 ”横向 控制 效果 图 
Fig. 15 Lateral control results 
表 6 模型 误差 
Tab.6 Model error 


MAD 真实 驾驶 员 MPC DDPG 
加 速度 0.5766 0.8241 0.5161 
速度 0.8630 0.7859 0.4370 
距离 1.4368 0.4773 1.3314 
表 7 跟 驰 模型 评价 

Tab.7 Carfollowing model evaluation 
真实 驾驶 员 决 策 MPC 决策 ^ DDPG 决策 
jerk(n/s?) 408.2924 337.4202 265.5867 
thw(s) 1.6712 1.2306 1.7247 


录用 定稿 FEI, F: 基于 横 纵向 联合 控制 的 多 目标 优化 车 辆 跟 驰 研究 


参考 文献 : 


[1] Saifuzzaman M, Zheng Z. Incorporating human-factors in car-following 
models: a review of recent developments and research needs [J]. 
Transportation research part C: emerging technologies, 2014, 48: 379-403. 

[2] Pipes L A. An operational analysis of traffic dynamics [J]. Journal of 
applied physics, 1953, 24 (3): 274-281. 

[3] 张 兰 芳 , KMA, MI, F. 基于 数据 驱动 的 城市 地 下 快速 路 跟 驰 
行为 模型 构建 [J]. 同济 大 学 学 报 : 自然 科学 版 , 2021, 49 (05): 661- 
669. (Zhang Lanfang, Zhu Peixuan, Yang Minhao, et al. Modeling of car- 
following behavior on urban underground expressways based on data- 
driven Methods [J]. Journal of Tongji University: Natural Science, 2021, 
49 (05): 661-669.) 


[4] FW, AXE. 基于 IDM 5 RBENN 的 组 合 型 车 辆 低速 跟 驰 模型 [I]. 


计算 机 应 用 研究 ，2019, 37 (8) 1-7. (Luo Ying, Qin Wenhu. 
Combination low-speed car-following model based on IDM and RBFNN 
[J]. Application Research of Computers, 2019, 37 (8): 1-7.) 

[5] Zhu Meixin, Wang Yinhai, Pu Ziyuan, et al. Safe, efficient, and 
comfortable velocity control based on reinforcement learning for 
autonomous driving [J]. Transportation Research Part C: Emerging 
Technologies, 2020, 117: 102662. 

[6] Pan Feng, Bao Hong. Preceding vehicle following algorithm with human 
driving characteristics [J]. Proceedings of the Institution of Mechanical 
Engineers, Part D: Journal of Automobile Engineering, 2021, 235 (7): 
1825-1834. 

[7] kk, FME, Ad, F. 基于 深度 强化 学 习 的 车 辆 跟 驰 控制 [I]. 
中 国 公路 学 报 , 2019, 32 (06): 53-60. (Zhu Bing, Jiang YuanDe, Zhao 
Jian, et al. A car-following control algorithm based on deep 
reinforcement learning [J]. China Journal of Highway and Transport, 
2019, 32 (06): 53-60.) 

[8] Camacho E F, Alba C B. Model predictive control [M]. Springer science 
& business media, 2013. 


第 39 卷 第 8 期 


[9] Hu Xiaosong, Zhang Xiaoqian, Tang Xiaolin, et al. Model predictive 
control of hybrid electric vehicles for fuel economy, emission reductions, 
and inter-vehicle safety in car-following scenarios [J]. Energy, 2020, 196: 
117101. 

[10] Mao Jin, Yang Lei, Hu Yuanbo, et al. Research on Vehicle Adaptive 
Cruise Control Method Based on Fuzzy Model Predictive Control [J]. 
Machines, 2021, 9 (8): 160. 

[11] Muhrer E, Vollrath M. The effect of visual and cognitive distraction on 
driver's anticipation in a simulated car following scenario [J]. 
Transportation research part F: traffic psychology and behaviour, 2011, 
14 (6): 555-566. 

[12] 许 芳 ,， 张 君 明 ， 胡 云 峰 ， 等 . 智能 车 辆 路 径 跟 踪 横 纵向 耦合 实时 预测 
控制 器 D] 吉林 大 学 学 报 : 工学 版 , 2021, 51 (6): 2287-2294. (Xu 
Fang, Zhang Junming, Hu Yunfeng, et al. Lateral and longitudinal 
coupling real-time predictive controller for intelligent vehicle path 
tracking [J]. Journal of Jilin University: Engineering and Technology 
Edition, 2021, 51 (6): 2287-2294.) 

[13] Wang Hong, Huang Yanjun, Khajepour A, et al. Crash mitigation in 
motion planning for autonomous vehicles [J]. IEEE transactions on 
intelligent transportation systems, 2019, 20 (9): 3313-3323. 

[14] Zhu Meixin, Wang Xuesong, Wang Yinhai. Human-like autonomous car- 
following model with deep reinforcement learning [J]. Transportation 
research part C: emerging technologies, 2018, 97: 348-368. 

[15] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep 
reinforcement learning [J]. arXiv preprint arXiv: 1509. 02971, 2015. 

[16] Puan O C, Mohamed A, Idham M K, et al. Drivers behaviour on 
expressways: headway and speed relationships [C]// IOP Conference 
Series: Materials Science and Engineering. IOP Publishing, 2019, 527 
(1): 012071. 

[17] Wang Yulei, Ding Haitao, Yuan Jinxin, et al. Output-feedback triple-step 
coordinated control for path following of autonomous ground vehicles 


[J]. Mechanical Systems and Signal Processing, 2019, 116: 146-159. 


